Inventi Impact: Digital Multimedia Broadcasting

Articles

Inventi:edmb/81862/25

CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval

28-Mar-2025 Research 2025 : April-June

Tao Zhang, Yu Zhang

Video-text retrieval (VTR) is an essential task in multimodal learning, aiming to bridge the semantic gap between visual and textual data. Effective video frame sampling plays a crucial role in improving retrieval performance, as it determines the quality of the visual content representation. Traditional sampling methods, such as uniform sampling and optical flow-based techniques, often fail to capture the full semantic range of videos, leading to redundancy and inefficiencies. In this work, we propose CLIP4Video-Sampling: Global Semantics- Guided Multi-Granularity Frame Sampling for Video-Text Retrieval, a global semantics-guided multi-granularity frame sampling strategy designed to optimize both computational efficiency and retrieval accuracy. By integrating multi-scale global and local temporal sampling and leveraging the CLIP (Contrastive Language-Image Pre-training) model’s powerful feature extraction capabilities, our method significantly outperforms existing approaches in both zero-shot and fine-tuned video-text retrieval tasks on popular datasets. CLIP4Video-Sampling reduces redundancy, ensures keyframe coverage, and serves as an adaptable pre-processing module for multimodal models.

How to Cite this Article
Attribution/ CC Compliant Citation: Zhang, Tao, and Yu Zhang. "CLIP4Video-Sampling: Global Semantics-Guided Multi- Granularity Frame Sampling for Video-Text Retrieval." Journal of Computer and Communications 12.11 (2024): 26-36. https://doi.org/10.4236/jcc.2024.1211002 https://creativecommons.org/licenses/by/4.0/ Some formatting elements, header, footer, logos, dates and pagination were modified while adapting this article.
Download Full Text

Call Us: +4 (800) 888-0008

Inventi Impact: Digital Multimedia Broadcasting

Articles

Inventi:edmb/81862/25

CLIP4Video-Sampling: Global Semantics-Guided Multi-Granularity Frame Sampling for Video-Text Retrieval

How to Cite this Article

Links

Contact Us